황금 기준 정의: MSE
우리의 추정값 $T$가 진실 $\psi(\theta)$로부터 얼마나 멀어졌는지를 측정하기 위해 우리는 평균 제곱 오차 (정의 6.3.1):
$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$
이는 추정량과 목표 사이의 평균 제곱 거리입니다. 완벽한 추정량은 MSE가 0이 되겠지만, 무작위 소음이 존재하는 세상에서는 이를 최소화하려 노력합니다.
정리 8.1.1: 오차의 구조
왜 추정량이 실패할까요? 정리 8.1.1은 그 청사진을 제공합니다. 만약 $T$가 유한한 두 번째 차원을 가진다면, 임의의 상수 $c$에 대한 오차는 다음과 같습니다:
이 공식은 전체 제곱 오차가 최소화되는 조건을 드러냅니다 오직 우리가 $c = E(T)$를 선택할 때에만 가능합니다. 추론 맥락에서 우리는 $c = \psi(\theta)$로 설정하여 유명한 분해식을 얻습니다:
MSE = 분산 + 편향$^2$
정밀도-정확도의 트레이드오프
품질 관리 실험실에 두 개의 저울이 있다고 상상해 보세요:
- 정밀한 고대유물: 항상 같은 무게를 보여줍니다(낮은 분산), 하지만 2그램만큼 잘못 캘리브레이션되어 있습니다(높은 편향).
- 불안정한 현명한 스승: 평균적으로는 정확하지만, 측정 사이에서 매우 크게 변동합니다(높은 분산).
정리 8.1.1을 통해 어느 저울이 더 낮은 총 오차를 제공하는지 정확히 계산할 수 있습니다. 종종 우리는 분산을 크게 줄이면 시스템적 편향(편향)을 약간 받아들이는 데 동의합니다.
예제 8.1.1: 충분성과 정보
최적성은 정보. 표본 공간 $S = \{1, 2, 3, 4\}$를 생각해 보세요. 가능한 모든 매개변수 하에서 결과 2, 3, 4가 동일하게 확률을 가진다면, 이들은 같은 가능성. 우리는 이러한 결과들을 하나로 묶어도 최적의 추론 능력을 잃지 않는 충분 통계량 $U$를 정의할 수 있습니다. 시뮬레이션에서 보여주듯이, $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$라면, 최적의 추정량은 이들을 단일한 정보성 사건으로 취급합니다.